کاوش موضوع رگرسیون خطی
صفحه اصلی
رگرسیون خطی
رگرسیون خطی در آمار یک مدل آماری است که رابطه خطی بین یک پاسخ نردهای (متغیر وابسته) و یک یا بیشتر متغیر تبیینی (رگرسور یا متغیر مستقل) را تخمین میزند. رگرسیون خطی یکی از روشهای تحلیل رگرسیون است. رگرسیون خطی نوعی تابع پیشبینیکننده خطی است که در آن متغیر وابسته — متغیری که قرار است پیشبینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیشبینی میشود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر بهدست آمده ضرب میشود؛ جواب نهائی مجموع حاصلضربها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین بهدست آمدهاست. سادهترین نوع رگرسیون خطی، رگرسیون خطی ساده است که برخلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیشبینی یک متغیر وابسته چندین متغیر وابسته پیشبینی میشود.
فرایند تخمین سعی میکند ضرایبِ مدل رگرسیون خطی را به گونهای انتخاب کند که با دادههای موجود همخوانی داشته باشد، یعنی پیشبینیها به مقادیر رؤیت شده در دادهها نزدیک باشند و یکی از مهمترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راههای مختلفی برای حل این مسئله وجود دارد. در روشهای احتمالی، مدلهای رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آمارهای از متغیر وابسته را به عنوان پیشبینی نهایی بهکار میبرند. از متداولترین آمارههای مورد استفاده میانگین است، اگر چه سایر آمارهها نظیر میانه یا چندکها نیز مورد استفاده قرار میگیرند.
یکی دیگر از روشهای متداول تخمین، روش کمترین مربعات است که در آن مجموع مربع تفاضل پیشبینیها و دادههای وابسته کمینه میشود. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام دادههای مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که میتواند به علت وارونهناپذیری ماتریس نهائی و کمبود داده پرهزینه و ناکارا باشد. از این رو عموماً از روشهای جایگزین مانند گرادیان کاهشی تصادفی استفاده میشود. با اینکه روش کمترین مربعات از متداولترین روشهای تخمین مدل رگرسیون خطی است اما روشهای دیگری مانند کمترین قدرمطلقها (که در آن مجموع قدرمطلق تفاضل پیشبینی و داده وابسته به عنوان تابع هزینه در نظرگرفته میشود) یا تخمین جریمه یافتهٔ کمترین مربعات (مانند جریمهٔ نُرمِ
L
2
{\displaystyle L_{2}}
و جریمهٔ نُرمِ
L
1
{\displaystyle L_{1}}
) نیز مورد استفاده قرار میگیرد.
روش تخمین از طریق کمترین مربعات با روش تخمین میانگین از طریق اعمال برآورد درستنمایی بیشینه بر متغیر وابسته شرطی با در نظر گرفتن یک سری مفروضات معادل خواهد بود. این روش احتمالی برای محافظت مدل از بیشبرازش نیز مورد استفاده قرار میگیرد، به این شکل که در تخمین مدل، احتمال پسین به جای تابع درستنمایی بیشینه میشود و احتمال پیشین به پارامترهایی که نُرمِ کمتری دارند احتمال بالاتری اختصاص میدهد. در نتیجه مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این به نوبهٔ خود باعث حفاظت مدل از بیشبرازش میشود. روش استفادهٔ برآورد درستنمایی احتمال پسین معادل روش تخمین جریمه یافتهٔ کمترین مربعات است.
رگرسیون خطی بهطور گستردهای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار میگیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف، این روش محدودیتهایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمیگنجند و یک متغیر خروجی ندارند (مانند تجزیه و تحلیل خوشهای برای آشکار ساختن گروههای منسجم در دادهها). همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.... بیشتر در ویکی پدیا